重建和分类误差的关节优化是一个难题的问题,尤其是当使用非线性映射时。为了克服这一障碍,提出了一种新颖的优化策略,其中将降低维度的卷积自动编码器和由完全连接的网络组成的分类器组合在一起,以同时产生监督的维度降低和预测。事实证明,这种方法也可以极大地有益于深度学习体系结构的解释性。此外,可以利用针对分类任务进行优化的最终潜在空间来改善传统的,可解释的分类算法。实验结果表明,所提出的方法对最先进的深度学习方法实现了竞争结果,同时在参数计数方面更有效。最后,从经验上证明,所提出的方法论介绍了关于通过产生的潜在空间的数据结构,还涉及分类行为的高级解释性。
translated by 谷歌翻译
Data scarcity is one of the main issues with the end-to-end approach for Speech Translation, as compared to the cascaded one. Although most data resources for Speech Translation are originally document-level, they offer a sentence-level view, which can be directly used during training. But this sentence-level view is single and static, potentially limiting the utility of the data. Our proposed data augmentation method SegAugment challenges this idea and aims to increase data availability by providing multiple alternative sentence-level views of a dataset. Our method heavily relies on an Audio Segmentation system to re-segment the speech of each document, after which we obtain the target text with alignment methods. The Audio Segmentation system can be parameterized with different length constraints, thus giving us access to multiple and diverse sentence-level views for each document. Experiments in MuST-C show consistent gains across 8 language pairs, with an average increase of 2.2 BLEU points, and up to 4.7 BLEU for lower-resource scenarios in mTEDx. Additionally, we find that SegAugment is also applicable to purely sentence-level data, as in CoVoST, and that it enables Speech Translation models to completely close the gap between the gold and automatic segmentation at inference time.
translated by 谷歌翻译
In this paper, we address the problem of image splicing localization with a multi-stream network architecture that processes the raw RGB image in parallel with other handcrafted forensic signals. Unlike previous methods that either use only the RGB images or stack several signals in a channel-wise manner, we propose an encoder-decoder architecture that consists of multiple encoder streams. Each stream is fed with either the tampered image or handcrafted signals and processes them separately to capture relevant information from each one independently. Finally, the extracted features from the multiple streams are fused in the bottleneck of the architecture and propagated to the decoder network that generates the output localization map. We experiment with two handcrafted algorithms, i.e., DCT and Splicebuster. Our proposed approach is benchmarked on three public forensics datasets, demonstrating competitive performance against several competing methods and achieving state-of-the-art results, e.g., 0.898 AUC on CASIA.
translated by 谷歌翻译
Recent video+language datasets cover domains where the interaction is highly structured, such as instructional videos, or where the interaction is scripted, such as TV shows. Both of these properties can lead to spurious cues to be exploited by models rather than learning to ground language. In this paper, we present GrOunded footbAlL commentaries (GOAL), a novel dataset of football (or `soccer') highlights videos with transcribed live commentaries in English. As the course of a game is unpredictable, so are commentaries, which makes them a unique resource to investigate dynamic language grounding. We also provide state-of-the-art baselines for the following tasks: frame reordering, moment retrieval, live commentary retrieval and play-by-play live commentary generation. Results show that SOTA models perform reasonably well in most tasks. We discuss the implications of these results and suggest new tasks for which GOAL can be used. Our codebase is available at: https://gitlab.com/grounded-sport-convai/goal-baselines.
translated by 谷歌翻译
图像分类的深卷卷神经网络(CNN)依次交替交替进行卷积和下采样操作,例如合并层或陷入困境的卷积,从而导致较低的分辨率特征网络越深。这些降采样操作节省了计算资源,并在下一层提供了一些翻译不变性以及更大的接收领域。但是,这样做的固有副作用是,在网络深端产生的高级特征始终以低分辨率特征图捕获。逆也是如此,因为浅层总是包含小规模的特征。在生物医学图像分析中,工程师通常负责对仅包含有限信息的非常小的图像贴片进行分类。从本质上讲,这些补丁甚至可能不包含对象,而分类取决于图像纹理中未知量表的微妙基础模式的检测。在这些情况下,每一个信息都是有价值的。因此,重要的是要提取最大数量的信息功能。在这些考虑因素的推动下,我们引入了一种新的CNN体​​系结构,该体系结构可通过利用跳过连接以及连续的收缩和特征图的扩展来保留深,中间和浅层层的多尺度特征。使用来自胰腺导管腺癌(PDAC)CT扫描的非常低分辨率斑块的数据集,我们证明我们的网络可以超越最新模型的当前状态。
translated by 谷歌翻译
及时,准确地检测功率电子中的异常,对于维持复杂的生产系统而变得越来越重要。强大而可解释的策略有助于减少系统的停机时间,并抢占或减轻基础设施网络攻击。这项工作从解释当前数据集和机器学习算法输出中存在的不确定性类型开始。然后引入和分析三种打击这些不确定性的技术。我们进一步介绍了两种异常检测和分类方法,即矩阵曲线算法和异常变压器,它们是在电源电子转换器数据集的背景下应用的。具体而言,矩阵配置文件算法被证明非常适合作为检测流时间序列数据中实时异常的概括方法。迭代矩阵配置文件的结构python库实现用于创建检测器。创建了一系列自定义过滤器并将其添加到检测器中,以调整其灵敏度,回忆和检测精度。我们的数值结果表明,通过简单的参数调整,检测器在各种故障场景中提供了高精度和性能。
translated by 谷歌翻译
从基因表达数据中提取信息的广泛使用方法采用基因共表达网络的构建以及随后发现网络结构的算法的应用。特别是,一个共同的目标是基因簇的计算发现,通常称为模块。当应用新的基因表达数据集上时,可以使用基因本体学富集自动评估计算模块的质量,该方法可在计算的模块中测量基因本体论项的频率并评估其统计学上的可能性。在这项工作中,我们建议基于光谱网络理论数学中相对较新的开创性工作,提出了SGC的基因聚类的新型管道。 SGC由多个新型步骤组成,这些步骤能够以无监督的方式计算高度富集的模块。但是,与所有现有框架不同,它进一步结合了一个新的步骤,该步骤在半监督聚类方法中利用基因本体学信息,进一步提高了计算模块的质量。与已经众所周知的现有框架相比,我们表明SGC导致实际数据的富集更高。特别是,在12个实际基因表达数据集中,SGC的表现优于除1个。
translated by 谷歌翻译
如今,越来越多的数据集已发布针对系统和模型的研究和开发,从而直接比较,解决方案的持续改进以及研究人员参与实验,现实生活数据。但是,尤其是在结构健康监测(SHM)领域中,在许多情况下,新的研究项目具有结构设计和实施,传感器选择和技术推动因素的独特组合,这些组合不符合相关个人研究的配置文学。因此,由于我们没有找到任何相关存储库,因此我们将案例研究中的数据分享到研究界。更具体地说,在本文中,我们提出了一个新颖的时间序列数据集,用于使用陶瓷压电传感器(PZTS)连接到物联网(IOT)设备(IOT)设备的陶瓷压电传感器(PZTS),用于塑料薄板上的撞击检测和本地化,朝着结构性健康监测应用。数据集是从低速,低能冲击事件的实验过程中收集的,该过程包括每个独特的实验至少3个重复,而输入测量值来自放置在板的角落的4个PZT传感器。对于每个重复和传感器,以100 kHz的采样率存储5000个值。该系统用钢球激发,释放的高度从10厘米到20厘米不等。该数据集可在GitHub(https://github.com/smart-objects/impact-events-dataset)中获得。
translated by 谷歌翻译
流媒体数据中对异常的实时检测正在受到越来越多的关注,因为它使我们能够提高警报,预测故障并检测到整个行业的入侵或威胁。然而,很少有人注意比较流媒体数据(即在线算法)的异常检测器的有效性和效率。在本文中,我们介绍了来自不同算法家族(即基于距离,密度,树木或投影)的主要在线检测器的定性合成概述,并突出了其构建,更新和测试检测模型的主要思想。然后,我们对在线检测算法的定量实验评估以及其离线对应物进行了彻底的分析。检测器的行为与不同数据集(即元功能)的特征相关,从而提供了对其性能的元级分析。我们的研究介绍了文献中几个缺失的见解,例如(a)检测器对随机分类器的可靠性以及什么数据集特性使它们随机执行; (b)在线探测器在何种程度上近似离线同行的性能; (c)哪种绘制检测器的策略和更新原始图最适合检测仅在数据集的功能子空间中可见的异常; (d)属于不同算法家族的探测器的有效性与效率之间的权衡是什么; (e)数据集的哪些特定特征产生在线算法以胜过所有其他特征。
translated by 谷歌翻译
通过自动化的学习,以改进的智能城市应用程序的自动化学习来加速和增强数据。在物联网(IoT)生态系统的背景下,数据通信通常是昂贵,效率低下,不可扩展并且缺乏安全性。联合学习(FL)在提供隐私和沟通有效的机器学习(ML)框架方面起着关键作用。在本文中,我们评估了在智能城市街道灯光监控应用程序中FL的可行性。针对Lampposts操作的分类任务的集中式和(完全)个性化的机器学习技术的基准评估FL。在这种情况下合并FL显示出对分类任务的绩效最小的降低,但沟通成本和保留性保留的巨大改善。这些结果增强了FL的生存能力和物联网应用的潜力。
translated by 谷歌翻译